在样本量有限的域中,有效的学习算法至关重要。使用特权信息(LUPI)学习,通过允许预测模型在培训时间访问信息类型,从而提高了样本效率,而在使用模型时,这是不可用的。在最近的工作中,有证据表明,对于线性高斯动力学系统的预测,具有中间时间序列数据访问的卢比学习者永远不会比任何公正的经典学习者更糟糕,而且常常更好。我们为该分析提供了新的见解,并将其推广到潜在动力学系统中的非线性预测任务,从而将理论保证扩展到连接潜在变量和观察值的地图已知到线性变换的情况下。此外,我们提出了基于随机特征和表示该地图未知的情况的表示算法。一套经验结果证实了理论发现,并显示了在非线性预测中使用特权时间序列信息的潜力。
translated by 谷歌翻译
重要性采样(IS)通常用于执行违规策略评估,但容易出现几个问题,特别是当行为策略未知并且必须从数据估计时。由于例如高方差和非评估动作,目标和行为策略之间的显着差异可能导致不确定的值估计。如果使用黑盒式模型估计行为策略,则可能很难诊断潜在的问题,并确定哪些输入策略在其建议的动作和结果中不同。为了解决这个问题,我们建议估算使用原型学习的行为策略。我们在评估败血症处理的政策时应用这种方法,展示了原型如何在目标和行为政策之间提供凝聚率的差异摘要,同时保留与基线估计相当的准确性。我们还描述了原型的估计值,以更好地了解目标政策的哪些部分对估计产生最大影响。使用模拟器,我们研究限制模型以使用原型的偏差。
translated by 谷歌翻译
模拟器为因果效应估计制作独特的基准,因为它们不依赖于无法验证的假设或干预现实世界的能力,但往往太简单,无法捕获实际应用的重要方面。我们提出了Alzheimer疾病的模拟器,旨在建模医疗保健数据的复杂性,同时实现因果效应和政策估算的基准。我们将系统拟合到阿尔茨海默病神经影像倡议(ADNI)数据集和地面手工制作组件,从比较治疗试验和观察治疗模式的结果中。模拟器包括改变因果推理任务的性质和难度,例如潜在变量,效果异质性,观察到的历史长度,行为策略和样本大小的参数。我们使用模拟器比较平均和条件治疗效果的估计。
translated by 谷歌翻译
我们针对随机的多臂强盗及其具有线性预期奖励的上下文变体提出了基于多级汤普森采样方案的算法,在群集聚类的情况下。我们在理论上和经验上都表明,与使用标准汤普森采样相比,利用给定的集群结构如何显着改善遗憾和计算成本。在随机多军匪徒的情况下,我们对预期的累积后悔给出了上限,表明它如何取决于聚类的质量。最后,我们执行了经验评估,表明我们的算法与先前提出的具有聚集臂的匪徒相比表现良好。
translated by 谷歌翻译
There is intense interest in applying machine learning to problems of causal inference in fields such as healthcare, economics and education. In particular, individual-level causal inference has important applications such as precision medicine. We give a new theoretical analysis and family of algorithms for predicting individual treatment effect (ITE) from observational data, under the assumption known as strong ignorability. The algorithms learn a "balanced" representation such that the induced treated and control distributions look similar. We give a novel, simple and intuitive generalization-error bound showing that the expected ITE estimation error of a representation is bounded by a sum of the standard generalization-error of that representation and the distance between the treated and control distributions induced by the representation. We use Integral Probability Metrics to measure distances between distributions, deriving explicit bounds for the Wasserstein and Maximum Mean Discrepancy (MMD) distances. Experiments on real and simulated data show the new algorithms match or outperform the state-of-the-art.
translated by 谷歌翻译
Observational studies are rising in importance due to the widespread accumulation of data in fields such as healthcare, education, employment and ecology. We consider the task of answering counterfactual questions such as, "Would this patient have lower blood sugar had she received a different medication?". We propose a new algorithmic framework for counterfactual inference which brings together ideas from domain adaptation and representation learning. In addition to a theoretical justification, we perform an empirical comparison with previous approaches to causal inference from observational data. Our deep learning algorithm significantly outperforms the previous state-of-the-art.
translated by 谷歌翻译
在机器学习的许多应用中,不可避免的值是不可避免的,并且在培训和测试时都提出了挑战。当反复出现的模式中缺少变量时,已经提出了单独的图案子模型作为解决方案。但是,独立模型并不能有效利用所有可用数据。相反,将共享模型拟合到完整数据集通常取决于插补,而当丢失度取决于未观察到的因素时,这可能是次优的。我们提出了一种替代方法,称为共享模式子模型,该方法做出了a)在测试时对缺失值的强大预测,b)维持或提高模式子模型的预测能力,c)有一个简短的描述,可改善可解释性。我们确定共享是最佳的情况,即使缺失本身具有预测性以及预测目标取决于未观察到的变量。关于合成数据和两个医疗保健数据集的分类和回归实验表明,我们的模型在模式专业化和信息共享之间实现了良好的权衡。
translated by 谷歌翻译
随机对照试验(RCT)被认为是估计干预措施影响的黄金标准。最近的工作通过对年龄和种族等表的变量进行调节估计来研究RCT的效应异质性。但是,这种变量通常只在实验时间附近观察到,并且可能无法捕获效果变异的历史或地理原因。当实验单元与特定位置相关联时,卫星图像可以提供此类历史和地理信息,但是没有任何方法将其包含在描述效果异质性。在本文中,我们开发了一种方法,该方法使用深层概率建模框架估算,图像簇在治疗效果上具有相同的分布。我们将提出的方法与模拟中的替代方法进行比较,并在估计乌干达的反贫困干预措施的影响方面进行了比较。引入了因果正规化惩罚,以确保聚类模型在恢复平均治疗效果(ATE)方面的可靠性。最后,我们讨论了这些方法对其他领域的可行性,局限性以及适用性,例如医学和气候科学,其中图像信息很普遍。我们为在开源软件包中公开使用的所有建模策略制作代码。
translated by 谷歌翻译
因果关系的观察性研究需要调整混杂因素。在这些因素定义明确的单独随机变量的表格环境中,人们可以很好地理解混杂的效果。但是,在公共政策,生态学和医学中,决策通常是在非尾部环境中做出的,这些设置由图像中检测到的模式或对象(例如,地图,卫星或层析成像图像)所告知。使用此类图像进行因果推理会带来机会,因为图像中的对象可能与感兴趣的治疗和结果有关。在这些情况下,我们依靠图像来调整混淆,但观察到的数据并未直接标记重要对象的存在。在现实世界中的激励中,我们正式化了这一挑战,如何处理,以及哪些条件足以识别和估计因果关系。我们使用仿真实验分析有限样本的性能,并使用采用机器学习模型来估计图像混淆的倾向调整算法估算效果。我们的实验还检查了对图像模式机制错误指定的敏感性。最后,我们使用我们的方法来估计卫星图像中政策干预对非洲社区贫困的影响。
translated by 谷歌翻译
In this paper, we propose a novel technique, namely INVALIDATOR, to automatically assess the correctness of APR-generated patches via semantic and syntactic reasoning. INVALIDATOR reasons about program semantic via program invariants while it also captures program syntax via language semantic learned from large code corpus using the pre-trained language model. Given a buggy program and the developer-patched program, INVALIDATOR infers likely invariants on both programs. Then, INVALIDATOR determines that a APR-generated patch overfits if: (1) it violates correct specifications or (2) maintains errors behaviors of the original buggy program. In case our approach fails to determine an overfitting patch based on invariants, INVALIDATOR utilizes a trained model from labeled patches to assess patch correctness based on program syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to leverage both semantic and syntactic reasoning to enhance its discriminant capability. Second, INVALIDATOR does not require new test cases to be generated but instead only relies on the current test suite and uses invariant inference to generalize the behaviors of a program. Third, INVALIDATOR is fully automated. We have conducted our experiments on a dataset of 885 patches generated on real-world programs in Defects4J. Experiment results show that INVALIDATOR correctly classified 79% overfitting patches, accounting for 23% more overfitting patches being detected by the best baseline. INVALIDATOR also substantially outperforms the best baselines by 14% and 19% in terms of Accuracy and F-Measure, respectively.
translated by 谷歌翻译